# -*- coding: utf-8 -*-

from prettytable import PrettyTable
import sys
import nltk
import csv

# arquivo que contém as conexões que foram exportadas
CSV_FILE = 'C:\Users\dauster\Desktop\FG.MIneracao de dados\linkedln\linkedin_connections_export_microsoft_outlook.csv'

# retira o sufixo de algumas empresas exemplo Grupo Meira lins  , Industria Amberve
transforms = [('Grupo', ''), ('Emp', ''), ('Industria', '')]

# lê o arquivo e pesquisa a coluna com referencias as empresas
csvReader = csv.DictReader(open(CSV_FILE), delimiter=',', quotechar='"')
Contatos = [row for row in csvReader]
Empresas = [c['Company'].strip() for c in Contatos if c['Company'].strip() != '']

# retira os sufixos das empresas para analise melhor da frequência
for i in range(len(Empresas)):
    for transform in transforms:
        Empresas[i] = Empresas[i].replace(*transform)

# cria uma tabela contendo duas colunas
pt = PrettyTable(field_names=['Empresas', 'Frequencia'])

pt.align['Empresas'] = 'l'

#agrupa as empresas de acordo com sua frequência

fdist = nltk.FreqDist(Empresas)
# adiciona a tabela para melhor vizualização
[pt.add_row([Empresas, Frequencia]) for (Empresas, Frequencia) in fdist.items() if Frequencia > 1]
print(pt)


